Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.
translated by 谷歌翻译
科学机器学习(SCIML)是对几个不同应用领域的兴趣越来越多的领域。在优化上下文中,基于SCIML的工具使得能够开发更有效的优化方法。但是,必须谨慎评估和执行实施优化的SCIML工具。这项工作提出了稳健性测试的推论,该测试通过表明其结果尊重通用近似值定理,从而确保了基于多物理的基于SCIML的优化的鲁棒性。该测试应用于一种新方法的框架,该方法在一系列基准测试中进行了评估,以说明其一致性。此外,将提出的方法论结果与可行优化的可行区域进行了比较,这需要更高的计算工作。因此,这项工作为保证在多目标优化中应用SCIML工具的稳健性测试提供了比存在的替代方案要低的计算努力。
translated by 谷歌翻译
味道是遵循社会趋势和行为的风味行业的焦点。新调味剂和分子的研究和开发在该领域至关重要。另一方面,自然风味的发展在现代社会中起着至关重要的作用。鉴于此,目前的工作提出了一个基于科学机器学习的新颖框架,以在风味工程和行业中解决新的问题。因此,这项工作带来了一种创新的方法来设计新的自然风味分子。评估了有关合成可及性,原子数以及与天然或伪天然产物的相似性的分子。
translated by 谷歌翻译
We introduce an architecture for processing signals supported on hypergraphs via graph neural networks (GNNs), which we call a Hyper-graph Expansion Neural Network (HENN), and provide the first bounds on the stability and transferability error of a hypergraph signal processing model. To do so, we provide a framework for bounding the stability and transferability error of GNNs across arbitrary graphs via spectral similarity. By bounding the difference between two graph shift operators (GSOs) in the positive semi-definite sense via their eigenvalue spectrum, we show that this error depends only on the properties of the GNN and the magnitude of spectral similarity of the GSOs. Moreover, we show that existing transferability results that assume the graphs are small perturbations of one another, or that the graphs are random and drawn from the same distribution or sampled from the same graphon can be recovered using our approach. Thus, both GNNs and our HENNs (trained using normalized Laplacians as graph shift operators) will be increasingly stable and transferable as the graphs become larger. Experimental results illustrate the importance of considering multiple graph representations in HENN, and show its superior performance when transferability is desired.
translated by 谷歌翻译
我们介绍了IST和Unmabel对WMT 2022关于质量估计(QE)的共享任务的共同贡献。我们的团队参与了所有三个子任务:(i)句子和单词级质量预测;(ii)可解释的量化宽松;(iii)关键错误检测。对于所有任务,我们在彗星框架之上构建,将其与OpenKIWI的预测估计架构连接,并为其配备单词级序列标记器和解释提取器。我们的结果表明,在预处理过程中合并参考可以改善下游任务上多种语言对的性能,并且通过句子和单词级别的目标共同培训可以进一步提高。此外,将注意力和梯度信息结合在一起被证明是提取句子级量化量化宽松模型的良好解释的首要策略。总体而言,我们的意见书在几乎所有语言对的所有三个任务中都取得了最佳的结果。
translated by 谷歌翻译
能够分析和量化人体或行为特征的系统(称为生物识别系统)正在使用和应用变异性增长。由于其从手工制作的功能和传统的机器学习转变为深度学习和自动特征提取,因此生物识别系统的性能增加到了出色的价值。尽管如此,这种快速进步的成本仍然尚不清楚。由于其不透明度,深层神经网络很难理解和分析,因此,由错误动机动机动机的隐藏能力或决定是潜在的风险。研究人员已经开始将注意力集中在理解深度神经网络及其预测的解释上。在本文中,我们根据47篇论文的研究提供了可解释生物识别技术的当前状态,并全面讨论了该领域的发展方向。
translated by 谷歌翻译
这项工作总结了2022年2022年国际生物识别联合会议(IJCB 2022)的IJCB被遮挡的面部识别竞赛(IJCB-OCFR-2022)。OCFR-2022从学术界吸引了总共3支参与的团队。最终,提交了六个有效的意见书,然后由组织者评估。在严重的面部阻塞面前,举行了竞争是为了应对面部识别的挑战。参与者可以自由使用任何培训数据,并且通过使用众所周知的数据集构成面部图像的部分来构建测试数据。提交的解决方案提出了创新,并以所考虑的基线表现出色。这项竞争的主要输出是具有挑战性,现实,多样化且公开可用的遮挡面部识别基准,并具有明确的评估协议。
translated by 谷歌翻译
该论文描述了铁路数据集,这是葡萄牙波尔图市的城市地铁公共交通服务的预测维护项目的结果。数据是在2020年至2022年之间收集的,旨在开发用于在线异常检测和故障预测的机器学习方法。通过捕获几个类似的传感器信号(压力,温度,电流消耗),数字信号(控制信号,离散信号)和GPS信息(纬度,经度和速度),我们提供了一个框架,可以轻松使用和开发用于该框架新的机器学习方法。我们认为该数据集包含一些有趣的特征,并且可以成为预测维护模型的良好基准。
translated by 谷歌翻译
由于数据保护法和机构内的官方程序,在实践中很难在机构之间共享医疗数据。因此,大多数现有的算法经过相对较小的脑电图(EEG)数据集的培训,这可能会损害预测准确性。在这项工作中,我们通过将公开可用的数据集分配到代表各个机构中数据的不相交集中来共享数据时模拟了一个情况。我们建议在每个机构中培训一个(本地)检测器,并将其个人预测汇总为最终预测。比较了四个集合计划,即多数投票,平均值,加权平均值和Dawid-Skene方法。该方法仅使用EEG通道的一个子集在独立的数据集上进行了验证。当每个机构提供足够数量的数据时,合奏的精度与对所有数据进行训练的单个检测器相当。加权平均聚合方案表现出最佳性能,当局部检测器接近对所有可用数据训练的单个检测器的性能时,它只能用DAWID-SKENE方法略有优于。
translated by 谷歌翻译
理解神经动力学的空间和时间特征之间的相互作用可以有助于我们对人脑中信息处理的理解。图形神经网络(GNN)提供了一种新的可能性,可以解释图形结构化信号,如在复杂的大脑网络中观察到的那些。在我们的研究中,我们比较不同的时空GNN架构,并研究他们复制在功能MRI(FMRI)研究中获得的神经活动分布的能力。我们评估GNN模型在MRI研究中各种场景的性能,并将其与VAR模型进行比较,目前主要用于定向功能连接分析。我们表明,即使当可用数据稀缺时,基于基于解剖学基板的局部功能相互作用,基于GNN的方法也能够鲁棒地规模到大型网络研究。通过包括作为信息衬底的解剖连接以进行信息传播,这种GNN还提供了关于指向连接性分析的多模阶视角,提供了研究脑网络中的时空动态的新颖可能性。
translated by 谷歌翻译